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Be s chre ibung 

Sprachsteuerung von Audio- und Videogeraten 

Durch die Gesetzgebung und zur Erhohxmg der Sicherheit wird 
die Benutzung von Spracherkennung bei Applikationen im 
Automotive-Bereich in Zukunft verstarkt Anwendung finden. 
Neben Telephonieanwendungen werden Sprachsteuerungen 
tnittlerweile auch fiir Telematiksysteme , Infotainment -Systeme 
und In-Car- Systeme wie Klimaanlagen eingesetzt. Das 
verwendete Vokabular ist durch die aktuellen Erkenner bedingt 
einfach strukturiert und in der Regel kommandobasiert . 

Die Sprachsteuerxong von CD-Geraten erfolgt dabei in 
derzeitigen Produkten mitt els Kommandos fur die Grundbefehle 
wie etwa "Stopp", "Play", "Pause" etc. Die Auswahl der zu 
spielenden Tit el wird mittels der Nuramer des Tit els 
eingegeben, also beispielsweise durch "Play 5". Der Erkenner 
kann sich dabei auf das Erkennen des Kommandowortes in 
Verbindung mit einer Zahl beschranken. Da der Benutzer jedoch 
die Zuordnung der Titel zur Nummer auf der CD oftmals nicht 
kennt, ist dies Vorgehensweise unkomf ortabel . 

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, die 
Bedienung von Audio- und Videogeraten einfacher, komfortabler 
und sicherer zu machen. 

Diese Aufgabe wird durch die in den unabhangigen 
Patentanspruchen angegebenen Erfindungen gelost. Vorteilhafte 
Ausgestaltungen ergeben sich aus den abhangigen Anspruchen. 

Dement sprechend sind in einem Verf ahren zur Spracherkennung 
Audiodaten und/oder Videodaten jeweils Textdaten zugeordnet. 
In einer Graphem-zu-Phonem-Konvertierung werden die Textdaten 
als Grapheme Phonemen zugeordnet - Sodann konnen die Textdaten 
mit ihren zugehorigen Phonemen als Vokabular eines 
Spracherkenners verwendet werden. 
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Dadurch ergibt sich ein sehr reduziertes und auf die 
jeweilige Audio- und/oder Videoanwendung spezif iziertes 
Erkermervokabular, das auch von einem Spracherkenner mit sehr 
geringen Ressourcen verarbeitet werden kann, wie er 
\iblicherweise bei eingebetteten Spracherkennungslosungen im. 
Auto Oder in anderen Video- und/oder Audiogeraten vorliegt. 

Durch diese Vorgehensweise wird es ermoglicht , einen Titel 
beispielsweise durch "Play Waterloo" oder nur "Waterloo" 
direkt einzugeben, ohne dass der Benutzer sich wahrend der 
Autofahrt nebenbei noch die richtige Titelnummer liberlegen 
muss. Speziell bei Audiosystemen mit CD-Wechslem ist ein 
direkter Zugriff wunschenswert . 

Vorzugsweise liegen die Audiodaten auf einer CD vor. Soweit 
die CD CD-Text aufweist, sind die den Audiodaten zugeordneten 
Textdaten auf der CD als CD-Text gespeichert. Diese konnen 
dann direkt fiir die Graphem-zu-Phonem-Konvertierung 
herangezogen werden. 

Die den Audio- und/oder Videodaten zugeordneten Textdaten 
konnen auch allgemein in einem Inhaltsverzeichnis des 
Speichermediums gespeichert sein, das die Audio- und/oder 
Videodaten enthalt. 

Die Audiodaten konnen beispielsweise MP3-Daten sein. Dann 
sind die Textdaten vorzugsweise in einer Playlist 
gespeichert . 

Alternativ oder erganzend konnen die den Video- und/oder 
Audiodaten zugeordneten Textdaten von einer zentralen 
Datenbank abgerufen werden, insbesondere \iber das Internet 
aus einer Internet -Datenbank. 
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Die Textdaten enthalten vorzugsweise den Namen des oder der 
Irxterpreten und/oder den Titel der Audio- vind/oder 
Videodaten, denen sie zugeordnet sind. 

In einem weiteren Schritt konnen die Textdaten <iber eine 
Text-zu-Sprache-Konvertierung akustisch ausgegeben werden, so 
dass dem Benutzer seine Wahlmoglichkeiten, insbesondere 
hinsichtlich Titel und Interpreten, vorgelesen werden. 

Insbesondere wird iiber das Verfahren ein Audio- und/oder 
Videogerat mit Hilfe des Spracherkenners gesteuert . 

Eine Anordnung, die eingerichtet ist, eines der geschilderten 
Verfahren auszufilhren, lasst sich zum Beispiel durch 
Programmieren und Einrichtung einer Datenverarbeitungsanlage 
mit zu den genannten Verfahrens schritt en geh6rigen Mitteln 
realisieren. 

Die Anordnung kann bei spiel sweise ein Autoradio, insbesondere 
integriert mit Navigationssystem, ein CD-Spieler und/oder ein 
DVD-Spieler sein. 

Weitere Merkmale und Vorteile der Erf indung ergeben sich aus 
der Beschreibiing von Ausfiihrungsbeispielen. 

In einem Verfahren zur Spracherkennung wird eine Graphem-zu- 
Phonem-Technologie bei einem eingebetteten Spracherkenner 
dazu verwendet, dass die Titelnamen von Songs in Phonem- 
Polgen konvertiert werden und als Erkennervokabular zur 
sprachlichen Ansteuerung von CD-, DVD- und/oder MP3-Playem 
eingesetzt werden. Dies erlaubfc dem Benutzer eine direkte 
Anwahl der Songs fiber Titel, Interpreten oder altemativ 
konventionell uber die gewohnte Nummern-Nomenklatur . 

Werden zu den als Vokabular aufbereiteten Titeln 
verschiedener CDs die zugeordneten Positionen im CD-Wechsler 
vermerkt, kann bei der sprachlichen Eingabe der Titel erkannt 
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und einer bestinnnten CD zugeordnet werden. Der Wechsler kann 
die gewxinschte CD einlegen und den gewahlten Song abspielen. 
Die VokabulargroEe in einem 5-fach-Wechsler mit jeweils 20 
Liedern pro CD betragt demnach ca. 100 EintrAge. Dies stellt 
eine VokabulargroSe dar, die mit gangiger Technologie von 
eingebetteten Spracherkennem abgedeckt werden kann. 

Da Song-Titel in unterschiedlichen Sprachen vorliegen konnen, 
ist vor der Konvertierung der Titel in Phonem-Folgen eine 
Sprachidentif ikation durchzufuhren, die den geeigneten 
Phonem-Set und die korrekten sprachspezif ischen 
Konvertiemngsregeln f estlegt . 

Bei Audio-CDs liegen die Song-Titel in Textform auf CD-Text- 
kompatiblen CDs vor. Als alternative Ldsung in vemetzten 
Pahrzeugen kann die Titelliste per Download zur Verfiigung 
gestellt werden. 



Es werden also Textdaten von Audio- und/oder Videomedien als 
Vokabularbasis fur den Spracherkenner verwendet . Die direkte 
Sprachanwahl von Songtiteln erlaubt eine komfortable und fOr 
den Fahrer wenig ablenkende Methode zur Bedienung des CD- und 
MP3 -Equipments in Pahrzeugen. Durch die Nutzung der Graphem- 
zu-Phonem- Technologie kann diese direkte Sprachanwahl 
realisiert werden und dem Benutzer im Rahmen seiner Sprach- 
Bedienoberf lache zur Verfugung gestellt werden. 

Das vorgestellte Verfahren ist aufgrtand seiner Sichtbarkeit 
an der Benutzeroberf lache leicht nachweisbar. Durch die 
deutliche Koinforterhdhung ist der Mehrwert durch den Benutzer 
grofi und erkennbar. Da sich sprecherunabhangige Systeme auf 
langere Frist auch im Automotive-Bereich durchsetzen werden, 
bietet sich eine sprachliche CD- und/oder DVD-Ansteuerung als 
ideale Erganzung an. 

Das Verfahren kann beispielsweise direkt fur CDs im CD-Text- 
Pormat verwendet werden. Auf einer Audio- CD sind neben den 
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eigentlichen Musikdaten noch Zusatzdaten gespeichert, so 
genannte " Sub- Channels " . Es gibt dabei acht Sub-Channels (p, 
q, r, s, u, V und w) . Der q- Sub-Channel enthalt 
beispielsweise Inf ormationen uber die momentane Position. 
Eine besondere Stellung nimmt der Leadin-Bereich ein. Der 
Leadin-Bereich ist ein Bereich vor den normalen Musikdaten 
und enthalt in den q- Sub -Channels die "Table of Contents" 
(TOO der CD, also das Inhaltsverzeichnis der CD, In der TOC 
sind die Anf angspositionen der einzelnen Tracks gespeichert . 
In den Sub-Channels r-w des Leadins werden nun die CD-Text- 
Inf ormationen gespeichert, beispielsweise der Name der CD, 
die Namen der Tracks sowie die Interpreten. 

Mit dieser Infoirmation kann fur den Spracherkenner ein 
Vokabular dynamisch erzeugt werden. Dank Graphem-zu-Phonem- 
Konvertierting konnen dabei die Textdaten in Erkenner- 
verstandliche Phonemketten umgesetzt werden. Zur Bedienung 
kann dann das Vokabular oder Telle davon zur Steuerung des 
Audio- und/oder VideogerS.ts verwendet werden. 
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Patentanspriiche 

1, Verfahren zur Spracherkennung , 

- bei dem Audiodaten jeweils Textdaten zugeordnet sind, 

- bei dem Grapheme der Textdaten Phonemen zugeordnet werden, 

- bei dem die Textdaten mit ihren zugehorigen Phonemen als 
Vokabular eines Spracherkenners verwendet werden. 

2 . Verfahren nach Anspruch 1 , 

bei dem die Audiodaten auf einer CD vorliegen. 
3 . Verfahren nach Anspruch 2 , 

bei dem die den Audiodaten zugeordneten Textdaten auf der CD 
als CD-Text gespeichert sind. 

4. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem die Audiodaten MP3-Daten sind. 

5. Verfahren nach Anspruch 4, 

bei dem die Textdaten in einer Playlist gespeichert sind. 

6. Verfahren zur Spracherkennung , 

~ bei dem Videodaten jeweils Textdaten zugeordnet sind, 

- bei dem die Textdaten als Grapheme Phonemen zugeordnet 
werden, 

- bei dem die Textdaten mit ihren zugehorigen Phonemen als 
Vokabular eines Spracherkenners verwendet werden. 

7. Verfahren nach einem der vorhergehenden Anspruche, 

bei dem die Textdaten in einem Inhaltsverzeichnis auf einem 
Speichermedium gespeichert sind, auf dem die Audio- und/oder 
Videodaten gespeichert sind. 

8. Verfahren nach einem der vorhergehenden Anspruche, 

bei dem die Textdaten von einer zentralen Datenbank abgerufen 
werden, insbesondere uber das Internet. 
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9. Verfahren nach einem der vorhergehenden Anspruche, 

bei dem die Textdaten den Namen des Interpreter! und/oder den 
Titel der Audio- und/oder Videodaten enthalten, denen sie 
zugeordnet sind. 

10. Verfahren nach einem der vorhergehenden Anspriiche, 
bei dem ein Audio- und/oder Videogerat liber den 
Spracherkenner gesteuert wird. 

11. Verfahren nach einem der vorhergehenden Anspruche, 

bei dem die Textdaten zumindest teilweise in einer Text-zu- 
Sprache-Konvertierung konvertiert und akustisch ausgegeben 
werden . 

12. Anordnung, die eingerichtet ist^ ein Verfahren nach 
zumindest einem der vorstehenden Anspruche auszufuhren. 

13 . Anordnung nach Anspruch 12 , 
dadurch g e k e nn z e i c h n e t , 

dass die Anordnung ein Auto, ein Autoradio, ein CD-Spieler 
und/oder ein DVD-Spieler ist. 
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Zus ammenf as sung 

Sprachsteuerung von Audio- und Videogeraten 

Zu Audio- und/oder Videodaten vorliegende Textinf ormationen 
warden in einer Graphem-zu-Phonem-Konvertierung Phonemen 
zugeordnet und als Vokabular fur einen Spracherkenner 
verwendet . 



